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АОТОМАТТОМ ОЕ УСМ ГАМСОАСЕ ТНВООСН ТНЕ ЗУЗТЕМ ОЕ 
ВЕСОСМИТОМ ОЕ ТНЕ СЕЗТОВЕ ОЕ ТНЕ ОЕАЕ 


В статье рассматриваются методы распознавания жестов глухих, основанные на анализе внешних приз- 
наков жеста и анализе трехмерной модели руки. Рассмотрены подходы к обнаружению и распознаванию жес- 
тов при реализации технологии интеллектуального человеко-машинного интерфейса. Предложен новый алго- 
ритм на основе детектора Виолы-Джонса, его модификации и метода выделения связанных областей, использо- 
ван метод корреляционного анализа для распознавания жестов на видеопоследовательности Представлены ре- 
зультаты тестирования работы предложенного алгоритма. Показано, что использование указанного алгоритма 
дает возможность эффективного распознавания жеста из одного слова на видеопоследовательностях. 
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Введение 

Жестовый язык глухонемых является 
довольно сложным языком. В нем, как и в 
естественном языке используются грам- 
матика и правила жестикуляции 

Разработка системы автоматического 
распознавания жестов открывает путь для 
создания более естественных человеко-ма- 
шинных интерфейсов, убирает ограниче- 
ния общения, с которыми сталкиваются 
глухие люди в повседневной жизни. 
Исследования по созданию систем авто- 
матического сурдоперевода, в основном, 
посвящены жестам азбуки АЗГ. Насто- 
ящая работа рассматривает особенности 
преобразования в текстовый вид жестов 
глухих казахов. В дальнейшем планиру- 
ется расширить исследования за счет жес- 
тов, которые представляют собой движе- 
ния рук, головы, губ и обозначают не бук- 
ву, цифру, слово, а целое выражение или 
ситуацию. 
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Основная часть 

Современные методы распознавания 
жестов используют в основном технику на 
основе компьютерного зрения. Распоз- 
навание жестов может осуществляться 
методом создания пространства кривых, 
суть которого заключается в нахождении 
граничных контуров руки глухого, гово- 
рящего жестами [1]. Данный подход доста- 
точно надежен и инвариантен к переме- 
щениям и вращениям руки, однако требует 
больших вычислительных затрат. Известен 
алгоритм распознавания положения руки с 
помощью изображений скелета руки [2]. В 
данном случае применяется многокамер- 
ная система для нахождения центра грави- 
тации руки и наиболее отдаленных от него 
точек, обеспечивая, таким образом, инфор- 
мацию о положении кончиков пальцев, 
которая используется для построения изо- 
бражений скелета руки и, соответственно, 
распознавания. Остальные методы рас- 
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познавания жестов используют специаль- 
ные методы сравнения [3], дескрипторы 
Фурье, нейросети, гистограммы поло- 
жения, фильтрацию точек [4]. При распоз- 


навании используется фиксированный 
набор жестов, записанных на видео 
камеру. 


Поэтому быстродействие и простота 
алгоритма имеют большое значение. Такой 
подход включает сегментацию изображе- 
ния руки на основе цветовых характе- 
ристик кожи и ограничений размерности. 
Ограничение размерности является необ- 
ходимым условием, так как большая 
размерность вызывает огромные вычисли- 
тельные затраты [5]. Все движения руки 
описываются с помощью базисных векто- 
ров. Для уменьшения размерности прос- 
транства наблюдаемых векторов без су- 
щественной потери информации рекомен- 
дуется применять анализ главных компо- 
нент (АГК), а для отображения характер- 
ных особенностей — анализ независимых 
компонент (АНК) [6]. Для того чтобы сис- 
тема отвечала нужными реакциями на 
определенные совокупности внешних воз- 
действий, необходимо подключить про- 
цесс обучения, который заключается в 
адаптации системы к конкретным движе- 
ниям рук пользователя (заданному набору 
жестов). В качестве объектов обучения 
выступают визуальные изображения рук. 
Итак, на основе этих предварительных 
процедур обработки генерируется сигнал, 
который несет информацию о жесте на 
изображении. Далее жест сравнивается с 
набором жестов из базы данных и, в случае 
успешной классификации, ему присва- 
ивается определенная команда. На выходе 
системы формируется управляющий сиг- 
нал, предающий команду, на основе кото- 
рой автоматическое устройство выполняет 
то или иное действие. 

Предлагаемый нами алгоритм распо- 
знавания жестов состоит из следующих 
этапов: 1) обучение системы, задание 
конкретного набора жестов и соответству- 
ющих команд; 2) преобразование исход- 
ного изображения в начальное пред- 
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ставление (математические преобразова- 
ния, вычисление главных компонент); 3) 
локализация и сегментация областей руки 
на изображении на основе ключевых 
характеристик; 4) механизм классифика- 
ции (моделирования). 

Для обработки изображения прово- 
дим сегментацию изображения руки на 
основе ключевых характеристик. В 
качестве признака, который используется 
для отделения руки от фона на изображе- 
нии, можно использовать цвет кожи. В 
данном случае для реализации сегмен- 
тации применяется пиксельная модель 
кожи. Модель формируется исходя из 
информации о цветности (тон и насы- 
щенность), полученная в результате пред- 
варительного обучения, которое непо- 
средственно состоит в размещении руки 
пользователя в области так называемого 
обучающего квадрата. Пиксели, заключен- 
ные в эту область, используются для обу- 
чения модели, после чего выделенные пик- 
сели преобразовываются из цветового 
пространства КОВ в пространство НЗГ, 
откуда затем получается информация о 
цветности. Значения цветового тона Н и 
насыщенности 5 для каждого выбранного 


пикселя образуют набор -— (>> ->) 
х мха жж 


где п — количество отсчетов (пикселей), 
— = (Н,,5;) — значения цветового тона и 
м 


насыщенности 1-го пикселя. Для представ- 
ления функции плотности вероятности, 
описывающей принадлежность пикселей к 
цвету кожи, выбрана гауссова функция 
плотности вероятности (ГФПВ). 

В конечном итоге результатом про- 
цесса сегментации будет представление 
руки в виде реперной области путем 
применения алгоритма объединения пик- 
селей. Полученные таким образом резуль- 
таты являются инвариантными к фону и 
различным условиям освещения. 

Алгоритм можно модифицировать, 
если включить дополнительные этапы 
предобработки, такие как калибровка ка- 
мер, фильтрация и т.п. Этап сегментации 
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достаточно прост и при использовании в 
сложных условиях работы нуждается в 
усовершенствовании. Надежное выполне- 
ние алгоритма распознавания жестов пред- 
полагает учет неоднозначной природы ста- 
тических и динамических жестов, проблем 
выделения руки на изображении, условий 
освещения и помех. 

Согласно формализации ЗюКое каж- 
дый жест языка глухонемых можно пред- 
ставить в виде совокупности пяти 
компонент: 
® ТАВ — позиция руки или рук, 

РЕЙ, - конфигурация руки или рук, 
ОВТ- ориентация руки, 

$1 — движение руки, пальца и т.д., 
выражение лица-тела. 

На основе указанной формализации 
была предложена письменная форма 
американского жестового языка (АЗГ.) и в 
последующем — разработаны — системы 
обозначений НатБиге МоаНоп Зует и 
$1еп\/пИи?, которые использовались для 
документации АЗГ.. В настоящей работе 
будем опираться только на концепции, 
изложенные в этих системах. В системе 
5$1еп\/ ип» имеется 261 конфигураций 
руки. Под конфигурацией (формой) руки 
здесь понимается установленное положе- 
ние пальцев и кисти руки. 

Задача автоматического перевода 
жестового языка включает слежение за 
движением руки, распознавание последо- 
вательности показанных жестов и их 
отображение в текстовую форму. Если 


обозначить через Т* - сегменты видеоряда, 
в каждом из которых $ показывается 
отдельный жест, то задачу распознавания 
жестов можно представить в виде поиска 


функции В:Т* >5хХ М, 


х 
каждому сегменту из Т сопоставляет 


которая 


элемент из5 Х М. Несмотря на простую 

формулировку, задача является довольно 

сложной по некоторым причинам: 

- жесты, которые трудно отличить даже 
человеку, некоторые жесты схожи; 

- скорость жестикуляции может отли- 
чаться при разных показах жестов; 
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- размер ладони у разных людей сущест- 
венно отличается; 

- следует учитывать такие факторы, как 
разные цвета кожи у людей и 
изменения освещенности; 

- распознавание жестов необходимо осу- 
ществить в реальном времени; 

- несмотря на правила, каждому человеку 
свойственны свои особенности жестов; 

- как правило, жестикуляция производит- 
ся плавно и слитно, что затрудняет про- 
цесс сегментации показанных жестов. 

Система перевода жестового языка 
глухонемых в текстовый вид, получая на 
входе кадры видеоряда, вычисляет клю- 
чевые характеристики жеста в каждом 
кадре, сегментирует видеоряд на сегменты, 
каждый из которых соответствует отдель- 
но показанному жесту и после распозна- 
ется сам жест. На сегодняшний день в 
свободном доступе имеются библиотеки и 
программные платформы, которые могут 
быть использованы для решения части 
исследуемых задач. 

Одним из перспективных методов 
распознавания образов считается метод 
Виолы-Джонса — алгоритм, позволяющий 
обнаруживать объекты на изображениях в 
реальном времени. Этот метод предложен 
в 2001 году Полом Виолой и Майклом 
Джонсом. Данный метод является осново- 
полагающим для поиска объектов на изо- 
бражении в реальном времени в боль- 
шинстве существующих алгоритмов рас- 
познавания и идентификации. Так же он 
является одним из лучших по соотно- 
шению эффективности распознавания и 
скорости работы. Алгоритм показывает 
отличные результаты и распознает объек- 
ты под небольшим углом, примерно до 30 
градусов, и при различных условиях 
освещенности. Метод Виолы-Джонса явля- 
ется одним из лучших по соотношению 
показателей эффективность распознава- 
ния/скорость работы. На момент написа- 
ния алгоритм является основополагаю- 
щим для поиска объектов на изображении 
в реальном времени в большинстве 
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существующих методов распознавания и 

идентификации. 

Основные понятия метода Виолы- 
Джонса: 

1. Представление изображения в интег- 
ральном виде, что позволяет вычислять 
быстро необходимые объекты. 

2. Использование признаков Хаара, с 
помощью которых происходит поиск 
нужного объекта (в данном контексте, 
лица и его черт). 

3. Бустинг (от англ. Б00$- улучшение, 
усиление) для выбора наиболее подхо- 
дящих признаков для искомого объекта 
на данной части изображения. 

4. Использование каскадов признаков для 
быстрого отбрасывания окон, где не 
найдено лицо. 

В результате анализа существующих 
решений можно сделать вывод, что специ- 
ализированного классификатора, предназ- 
наченного для распознавания поз руки и 
удовлетворяющего указанным требовани- 
ям, еще не существует. Самым известным 
классификатором позы считаются детек- 
тор Виолы-Джонса и его модификации, 
которые применяются во многих работах. 
Недостатки этого детектора заключаются в 
длительном времени обучения, требовании к 
большой обучающей базе изображений, и 
чувствительности к наклонам и деформи- 
рованию объекта [5], что делает данный 
метод не самым подходящим решением для 
задачи распознавания позы руки в данной 
работе. Однако данный детектор является 
наилучшим кандидатом для задачи обнару- 
жения руки на видеокадрах в режиме ре- 
ального времени, благодаря его точности и 
скорости работы [6]. 

Таким образом выбора оптимальных 
алгоритмов и методов обнаружения и 
распознавания жестов руки на видео в 
режиме реального времени разработан 
усовершенствованный алгоритм, который 
позволяет уменьшить вероятность ложных 
обнаружений и повысить быстродействие 
работы системы. 

Данный алгоритм основан на методе 
Виолы-Джонса с использованием метода 
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выделения связанных областей и кор- 

реляционного метода состоит из следу- 

ющих этапов: 

Загрузка видео файла. 

Анализ кадров. 

Изменение размера изображения. 

Перевод изображения в полу-тоновое. 

Бинаризация изображения. 

Пороговое преобразование. 

Операции морфологической  обра- 

ботки изображения. 

8. Выделение связанных областей. 

9. Использование метода Виолы-Джонса. 

10. Поиск руки на изображении. 

11. Получение матрицы эталонов. 

12. Проход по всем эталонам и вычи- 
сление коэффициента корреляции. При 
совпадении эталона с изображением 
достигает максимального значения, 
равного единице. 

13. Распознавание жеста 
Экспериментальная часть 
Алгоритм на основе детектора Вио- 

лы-Джонса, его модификации и методов 

выделение связанных областей и корреля- 
ционный, предназначенный для распозна- 
вания двуручных жестов на видеопоследо- 

вательности. Эксперимент был проведен с 

помощью специализированного пакета для 

решения инженерных, научно-технических 

и экономических задач Май  \Мо!К$ 

МАТЕГАВ Е2018а. 

Читаем видео файл и запускаем 
детектор лица. Сначала зададим детектор 
каскадного объекта у1$1оп.СазсадеОес{- 
Раесюог, который определяет местополо- 
жение лица и\или его частей (носа, глаз 
или рта) в видеокадре. 

Детектор каскадного объекта исполь- 
зует алгоритм обнаружения Виолы-Джон- 
са и подготовленную классификационную 
модель для обнаружения. По умолчанию 
детектор настроен на обнаружение лиц, но 
его можно использовать для обнаружения 
других типов объектов. 
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ВЕЗОМЕ 


А.7. Ма$Штоуа, С.В. Са!ут7Бап, 
$.А. КадиБауеуа 

Абютабйоп 0Ё $121 1апооаге Игойов 
{пе зузбет оЁ гесоот оп оЁ Фе зеббиге о 
Фе деаЁ 

Шие[есва]| {(есВпо]о21ез Гог $121 1апгиа- 
2е5 (шсаате КатаКВ) ап4 Феш Геаиге$ Вауе 
по( Бееп сопз1Аегед ргорейу ш \ой9 5слепсе 
уеф, ШегеРоге Фе 4еуе]ортепе оЁ зисВ {есВпо- 
1021ез 15 тоге геуапё Фап еуег. А15о, Фе 
КатаКВ $11 1апецаее 15 заб]есё ю рагйа] ех- 
Оосбоп, ап 15 гедишез зреса! абепноп 
Бот П15196, 91 |апгиазе пмегргеегз апа 
зоНугаге 4еуеюрегз. 

Рог фе з@есйоп оЁ орйта| а1201 11$ 
ап тешфо4$ ог ащесип» ап тесостлие 
Бапа сезбиге$ ш геа]-ите у14ео Ваз Бееп ае- 
уеюоре ап пиргоуед ао итп Ффаё гедисе$ 
фе ПКепБоо4 о? Ра]5е деесйоп$ ап ппргоуез 
Фе зреед оЁ Фе зузет. 

Тре ипдоцые ауащазе оЁ Ше 
арргоасВ 1$ Из итуегзащу ш (епп$ оЁ ‘аКше 
ш®ю ассоипе Фе ЧуегзИу оЁ роз Ые соп@й- 
01$ апт? \ЮШе гесосшйоп оЁ у15а| обес. 

'ТБе аррИсайоп оЁ Фе У1о]а-Лопез ао- 
ит уф Фе и5е оЁ сотейаноп те@фо4$ Гог 
ппасе гесоэтаоп уе4е4 гоо4 геза5 — Ше 
тесорт оп оЁ 110$ хезбиагез уапез ш Ше гапое 
ог 80-96%. Ш оиг \о!К Гог ппаее ргосе5$1е, 
уе саггу ойё зестегтаноп оЁ фе ВБап4 птазе 
оп Фе Ба$1$ оЁ Кеу сБагасеп$йс$. Аз а $121, 
\/ыср 1$ изе 1ю зерагае фе Бап4$ Нот Фе 
БасКотоипа ш Фе плазе, фе $кш со]ог оЁ Фе 
регзоп оп Ше у1Аео згеат 15 изе4. Могеоует, 
© паретепЕ Фе зезтешайоп Ше рахе! кт 
тодЕ! 1$ аррпеа. ТБе тоде! 1$ Гогте4 оп Фе 
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Ба515 ог шЮппаНноп або с/готайсйу (юпе 
ап4 забгайоп), омаше4 аз а гезиё оЁ ргейт- 
пагу фашше, ус аАпесЙу соп$155 Ш 
расше Ще изег$ Бап@ ш Фе агеа оЁ Ще 50- 
саПе4 Теаглте здчаге. ТВе р1хе!5 епс1озе4 ш 
(15 агеа аге изед {10 шаш Фе тоде], аЙйег 
уреБ Ше з@есе4 рихе]$ аге сопуецед йот 
КОВ со|ог 5расе ю НЗГ, зрасе, пот \Шсв 
сБгота шптайоп 15 ШФеп оМашед. А 
Саизз1ап ргобаб у 4епзйу Рапсйоп (СРОЕ) 
13 свозеп © гергезеп фе ргобаБИиу депзиу 
Борсйоп Чезсиыте Фе рлхе!$ БеюопшФе © 
эк со]ог. 

Тре заБ]есе оЁ тезеагсВ 15 Ше 1азК оЁ 
сгеанп> ащютайс зузет оЁа $1еп 1апгиаее 
пиегргеабоп ап@ зузетз едшррей зу а 
тоге паига! Битап-тасбште ицеГасе Гог деаЁ 
реор. У!е тапазе4 © асшеуе №1$В ргосезз- 
ша 5рее4 апа зиарИсиу ш пиретещайоп, 
Би а|2отиа$ ап тефо4$ Базе оп кт 
соог Бауе та]ог @гамБасК$: Шеу саппоё 
41512136 обес ми зипПаг сог (Юг 
ехатр/е, Расе, Вап4$, ап офег раз оЁ Фе 
Боду); пеш еЁйсепсу зкопе]у 4ерепа$ оп фе 
Шиаптабоп ап 4есгеазез зВагр!у \Веп и 
свапоез. ТБ $ агафе 413си55ез тейфо4$ Гог 
тесо2т17лт> сезагез оЁ еаЁ реоре Базе оп 
Фе апа[у$1$ оЁ ежегпа| 5121$ ОЁ а сезаге ап4 
Фе апа[у$15 оЁ а Шгее-4ппепз1юопа| плоде] оЁ а 
Бапа. Тбе таш {азК 1$ © деуеюр аогиил$ 
Гог гесостите опе-Бап4е4 ап (\о-Бапдеа 
зезигез оГ фе 4еаЁ ап деуеюоршт» едиса- 
бопа[ зоЁ\аге аррИсайопз юг |еаглше $1еп 
1апгиазе. Сезаште тесогтиоп тейфо4$ фаё 
и5е зреса|] сотрайзоп тешфо4$ засВ а$ 
Роипег 4езсирюг$, пеига! пебмо$, роз1оп 
Ы5$ю2тапл$, рошё НЦегпе аге сопуаегед. 
Ехе 5е{ оЁ зезбигез гесог4е4 оп а у14ео 
сатега, ап 101$ зе! 15$ (аКеп аз Фе (апдага. 
Те Ма@Шаь ргоэгат гесо2т12ез сезагез у 
Тау 2004 ассигасу. Те зезбиге гесоотйоп 
а1еогибит ргорозеа Бу $ соп$156$ оЁ Юг 
убасез: зузет шапе, зепе а зресйс зе оЁ 
сезигез ап соггезроп41те соттап4$; гап$- 
Гогтайоп оЁ Фе опотша!| ппаге шю Ше пийа1 
тергеземайоп (табфетайса! шап$огтаНоп$, 
фе са]сШайоп оЁ Фе рипстра! сотропеп); 
1осайтаноп ап зестегтайоп оЁ Вап4 агеа$ ш 
фе птасе Базе оп Кеу сБагасеп$йс$; 
с1аз$1\Нсайоп тшесрашзт (зпааНоп). 
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